# 本章簡介

<CourseFloatingBanner
    chapter={5}
    classNames="absolute z-10 right-0 top-0"
/>

在[第三章](/course/chapter3)第一次體驗了 🤗Datasets 庫，並發現在微調模型時有三個主要步驟：

1. 從 Hugging Face Hub 加載一個數據集。
2. 使用 Dataset.map() 對數據進行預處理。
3. 載入和計算指標(特徵)。

但這只是🤗 Datasets的表面功能而已！在本章中，我們將深入瞭解這個庫。在此過程中，我們將找到以下問題的答案：

* 當數據集不在 hub 上時，您該怎麼做？
* 如何對數據集進行切片？（如果你真正的特別需要使用pandas的時候該怎麼辦？）
* 當你的數據集很大，會撐爆你筆記本電腦的RAM時，你會怎麼做？
* 「內存映射」和 Apache Arrow 到底是什麼？
* 如何創建自己的數據集並將其推送到中心？

您在這裡學到的技術將為您在[第6章](/course/chapter6)和[第7章](/course/chapter7)中的高級標記化和微調任務做好準備——所以，喝杯咖啡，讓我們開始吧!